在接受高质量的地面真相(如LiDAR数据)培训时,监督的学习深度估计方法可以实现良好的性能。但是,LIDAR只能生成稀疏的3D地图,从而导致信息丢失。每个像素获得高质量的地面深度数据很难获取。为了克服这一限制,我们提出了一种新颖的方法,将有前途的平面和视差几何管道与深度信息与U-NET监督学习网络相结合的结构信息结合在一起,与现有的基于流行的学习方法相比,这会导致定量和定性的改进。特别是,该模型在两个大规模且具有挑战性的数据集上进行了评估:Kitti Vision Benchmark和CityScapes数据集,并在相对错误方面取得了最佳性能。与纯深度监督模型相比,我们的模型在薄物体和边缘的深度预测上具有令人印象深刻的性能,并且与结构预测基线相比,我们的模型的性能更加强大。
translated by 谷歌翻译
在基于骨架的动作识别中,图形卷积网络将人类骨骼关节模拟为顶点,并通过邻接矩阵将其连接起来,可以将其视为局部注意力掩码。但是,在大多数现有的图形卷积网络中,局部注意力面膜是根据人类骨架关节的自然连接来定义的,而忽略了例如头部,手和脚关节之间的动态关系。此外,注意机制已被证明在自然语言处理和图像描述中有效,在现有方法中很少研究。在这项工作中,我们提出了一个新的自适应空间注意层,该层将局部注意力图扩展到基于相对距离和相对角度信息的全局。此外,我们设计了一个连接头部,手脚的新初始图邻接矩阵,该矩阵在动作识别精度方面显示出可见的改进。在日常生活中人类活动领域的两个大规模且挑战性的数据集上,评估了该模型:NTU-RGB+D和动力学骨架。结果表明,我们的模型在两个数据集上都有很强的性能。
translated by 谷歌翻译
The field of autonomous mobile robots has undergone dramatic advancements over the past decades. Despite achieving important milestones, several challenges are yet to be addressed. Aggregating the achievements of the robotic community as survey papers is vital to keep the track of current state-of-the-art and the challenges that must be tackled in the future. This paper tries to provide a comprehensive review of autonomous mobile robots covering topics such as sensor types, mobile robot platforms, simulation tools, path planning and following, sensor fusion methods, obstacle avoidance, and SLAM. The urge to present a survey paper is twofold. First, autonomous navigation field evolves fast so writing survey papers regularly is crucial to keep the research community well-aware of the current status of this field. Second, deep learning methods have revolutionized many fields including autonomous navigation. Therefore, it is necessary to give an appropriate treatment of the role of deep learning in autonomous navigation as well which is covered in this paper. Future works and research gaps will also be discussed.
translated by 谷歌翻译
音乐信号很难从其低级功能中解释,甚至可能不仅仅是图像:突出显示频谱图或图像的一部分通常不足以传达与人类真正相关的高级思想。在计算机视觉中,提议将概念学习调整为正确的抽象水平(例如,从X光片中检测临床概念)。这些方法尚未用于miR。在本文中,我们将概念学习适应音乐领域,并具有特殊性。例如,音乐概念通常是非独立的,并且具有混合性质(例如类型,仪器,情绪),这与以前假定散布概念的作品不同。我们提出了一种从音频学习众多音乐概念的方法,然后自动层次结构以揭露他们的相互关系。我们在音乐流服务的播放列表数据集上进行实验,并作为不同概念的一些注释示例。评估表明,采矿的层次结构与概念的两个基础层次结构(如果可用)以及一般情况下的概念相似性的代理来源。
translated by 谷歌翻译
自我玩法是在马尔可夫游戏中构建解决方案的常见范式,可以在协作环境中产生最佳政策。但是,这些政策通常会采用高度专业的惯例,这使与新颖伴侣的比赛变得困难。为了解决这一问题,最近的方法依赖于将对称性和惯例意识编码为政策培训,但是这些方法需要强烈的环境假设,并使政策培训变得复杂。因此,我们建议将惯例的学习转移到信仰空间。具体而言,我们提出了一种信念学习模型,该模型可以维持对培训时间未观察到的政策推出的信念,因此可以在考试时进行解码和适应新的惯例。我们展示了如何利用这一模型来搜索和培训各种政策池中最佳响应,以极大地改善临时团队游戏。我们还展示了我们的设置如何促进细微的代理惯例的解释性和解释性。
translated by 谷歌翻译
目的:将人工智能(AI)作为第二读者比较胸部X射线(CXR)与两个双性机构的放射科医生的第二读者,并在使用两种不同的模式时评估AI性能:审查)。方法:分析了日本放射科学学会的CXR公共数据库(n = 247),具有各种类型和大小的肺结节。八位放射科医生评估了CXR图像关于肺结节和结节象征的存在。在放射科医生审查之后,AI软件以最高的结节可能性处理并标记了CXR。计算出的精度指标是曲线下的面积(AUC),灵敏度,特异性,F1分数,虚假案例数(FN)以及不同AI模式(自动/辅助)对结节检测准确性的影响。结果:对于放射科医生而言,平均AUC值为0.77 $ \ pm $ 0.07,而平均FN为52.63 $ \ pm $ 17.53(所有研究)和32 $ \ pm $ 11.59(研究包含一个恶性病理的研究= 32%错过的恶性结节的速率)。 AI模式(自动化和辅助)均可平均提高灵敏度(提高14%和12%)和F1得分(5%和6%)和特异性的降低(分别为10%和3%) )。结论:两种AI模式都标记了放射科医生在大量病例中错过的肺结节。 AI作为第二读者具有提高诊断准确性和放射学工作流程的高潜力。 AI可能比放射科医生早期检测到某些肺结核,对患者预后产生了潜在的显着影响。
translated by 谷歌翻译
We consider the problem of dynamic pricing of a product in the presence of feature-dependent price sensitivity. Developing practical algorithms that can estimate price elasticities robustly, especially when information about no purchases (losses) is not available, to drive such automated pricing systems is a challenge faced by many industries. Based on the Poisson semi-parametric approach, we construct a flexible yet interpretable demand model where the price related part is parametric while the remaining (nuisance) part of the model is non-parametric and can be modeled via sophisticated machine learning (ML) techniques. The estimation of price-sensitivity parameters of this model via direct one-stage regression techniques may lead to biased estimates due to regularization. To address this concern, we propose a two-stage estimation methodology which makes the estimation of the price-sensitivity parameters robust to biases in the estimators of the nuisance parameters of the model. In the first-stage we construct estimators of observed purchases and prices given the feature vector using sophisticated ML estimators such as deep neural networks. Utilizing the estimators from the first-stage, in the second-stage we leverage a Bayesian dynamic generalized linear model to estimate the price-sensitivity parameters. We test the performance of the proposed estimation schemes on simulated and real sales transaction data from the Airline industry. Our numerical studies demonstrate that our proposed two-stage approach reduces the estimation error in price-sensitivity parameters from 25\% to 4\% in realistic simulation settings. The two-stage estimation techniques proposed in this work allows practitioners to leverage modern ML techniques to robustly estimate price-sensitivities while still maintaining interpretability and allowing ease of validation of its various constituent parts.
translated by 谷歌翻译
由于从大规模预先训练的语言模型的转移学习在自然语言处理中普遍存在,在计算受限环境中运行这些模型仍然是一个具有挑战性的问题。已经提出了包括知识蒸馏,网络量化或网络修剪的几种解决方案;然而,这些方法主要关注英语,从而在考虑低资源语言时扩大差距。在这项工作中,我们为罗马尼亚语推出了三种轻型和快速版本的罗马尼亚语言:Distil-Bert-Base-Ro,Distil-Robert-Base和DistilMulti-Bert-Bas-Ro。前两种模型因单独蒸馏在文献中提供的两个基础版本的罗马尼亚伯爵的知识,而最后一个是通过蒸馏它们的集合来获得的。为了我们的知识,这是第一次尝试创建公开可用的罗马尼亚蒸馏BERT模型,这是在五个任务上进行彻底评估的:语音标记,名为实体识别,情感分析,语义文本相似性和方言识别。这些基准测试的实验结果证明,我们的三种蒸馏模型在与老师的准确性方面保持最大的表现,而GPU的两倍于GPU和〜35 \%较小。此外,我们进一步测试了我们的学生和他们的老师之间的相似性,通过测量其标签和概率忠诚度以及回归忠诚度 - 在这项工作中引入的新指标。
translated by 谷歌翻译
对称性是本质上的无所话话,并且由许多物种的视觉系统感知,因为它有助于检测我们环境中的生态重要的物体类。对称感知需要抽象图像区域之间的非局部空间依赖性,并且其底层的神经机制仍然难以捉摸。在本文中,我们评估了深度神经网络(DNN)架构关于从示例学习对称感知的任务。我们证明了在对象识别任务上建模人类性能的前馈DNN,不能获取对称的一般概念。即使当DNN被重建以捕获非局部空间依赖项,例如通过`扩张的“卷曲和最近引入的”变压器“设计,也是如此。相比之下,我们发现经常性架构能够通过将非局部空间依赖性分解成一系列本地操作来学习对称性,这对于新颖的图像来说是可重复使用的。这些结果表明,经常性联系可能在人工系统中对称性感知中发挥重要作用,也可能是生物学的。
translated by 谷歌翻译
外骨骼和矫形器是可穿戴移动系统,为用户提供机械益处。尽管在过去几十年中有重大改进,但该技术不会完全成熟,以便采用剧烈和非编程任务。为了适应这种功能不全,需要分析和改进该技术的不同方面。许多研究一直在努力解决外骨骼的某些方面,例如,机构设计,意向预测和控制方案。但是,大多数作品都专注于设计或应用的特定元素,而无需提供全面的审查框架。本研究旨在分析和调查为改进和广泛采用这项技术的贡献方面。为了解决此问题,在引入辅助设备和外骨骼后,将从物理人员 - 机器人接口(HRI)的角度来研究主要的设计标准。通过概述不同类别的已知辅助设备的几个例子,将进一步开发该研究。为了建立智能HRI策略并为用户提供直观的控制,将研究认知HRI。将审查这种策略的各种方法,并提出了意图预测的模型。该模型用于从单个电拍摄(EMG)通道输入的栅极相位。建模结果显示出低功耗辅助设备中单通道输入的潜在使用。此外,所提出的模型可以在具有复杂控制策略的设备中提供冗余。
translated by 谷歌翻译